plain/21.11/_neon_fallback_tests_8cpp_source.xhtml

 //
 // Copyright © 2020 Arm Ltd and Contributors. All rights reserved.
 // SPDX-License-Identifier: MIT
 //

 #include <backendsCommon/test/CommonTestUtils.hpp>
 #include <backendsCommon/test/mockBackend/MockImportBackend.hpp>

 #include <test/GraphUtils.hpp>

 #include <doctest/doctest.h>

 TEST_SUITE("NeonFallback")
 {
 TEST_CASE("FallbackImportToCpuAcc")
 {
     using namespace armnn;

     // Create a mock backend objectN
     MockImportBackendInitialiser initialiser; // Register the Mock Backend
     auto backendObjPtr = CreateBackendObject(MockImportBackendId());
     CHECK((backendObjPtr != nullptr));

     BackendIdSet backendIds = BackendRegistryInstance().GetBackendIds();
     if (backendIds.find("MockRef") == backendIds.end())
     {
         std::string message = "Cannot load MockRef";
         FAIL(message);
     }

     // Create runtime in which test will run and allow fallback to CpuRef.
     IRuntime::CreationOptions options;
     IRuntimePtr runtime(IRuntime::Create(options));

     // Builds up the structure of the network.
     INetworkPtr net(INetwork::Create());

     IConnectableLayer* input0 = net->AddInputLayer(0, "input0");
     IConnectableLayer* input1 = net->AddInputLayer(1, "input1");
     IConnectableLayer* input2 = net->AddInputLayer(2, "input2");
     IConnectableLayer* add = net->AddAdditionLayer("add");
     IConnectableLayer* sub = net->AddSubtractionLayer("sub");
     IConnectableLayer* output = net->AddOutputLayer(0, "output");

     input0->GetOutputSlot(0).Connect(add->GetInputSlot(0));
     input1->GetOutputSlot(0).Connect(add->GetInputSlot(1));
     input2->GetOutputSlot(0).Connect(sub->GetInputSlot(0));
     add->GetOutputSlot(0).Connect(sub->GetInputSlot(1));
     sub->GetOutputSlot(0).Connect(output->GetInputSlot(0));

     TensorInfo info = TensorInfo({ 1, 2, 3, 2 }, DataType::Float32);

     input0->GetOutputSlot(0).SetTensorInfo(info);
     input1->GetOutputSlot(0).SetTensorInfo(info);
     input2->GetOutputSlot(0).SetTensorInfo(info);
     add->GetOutputSlot(0).SetTensorInfo(info);
     sub->GetOutputSlot(0).SetTensorInfo(info);

     // optimize the network
     std::vector<BackendId> backends = { "MockRef", Compute::CpuAcc };
     OptimizerOptions optOptions;
     optOptions.m_ImportEnabled = true;
     IOptimizedNetworkPtr optNet = Optimize(*net, backends, runtime->GetDeviceSpec(), optOptions);

     Graph& graph = GetGraphForTesting(optNet.get());

     armnn::Layer* const layer0 = GetFirstLayerWithName(graph, "input0");
     armnn::Layer* const layer1 = GetFirstLayerWithName(graph, "input1");
     armnn::Layer* const layer2 = GetFirstLayerWithName(graph, "input2");
     armnn::Layer* const layer3 = GetFirstLayerWithName(graph, "add");
     armnn::Layer* const layer4 = GetFirstLayerWithName(graph, "[ add (0) -> sub (1) ]");
     armnn::Layer* const layer5 = GetFirstLayerWithName(graph, "sub");
     armnn::Layer* const layer6 = GetFirstLayerWithName(graph, "output");

     // Checks order is valid.
     CHECK(CheckOrder(graph, layer0, layer1));
     CHECK(CheckOrder(graph, layer1, layer2));
     CHECK(CheckOrder(graph, layer2, layer3));
     CHECK(CheckOrder(graph, layer3, layer4));
     CHECK(CheckOrder(graph, layer4, layer5));
     CHECK(CheckOrder(graph, layer5, layer6));

     // Load it into the runtime. It should pass.
     NetworkId netId;
     std::string ignoredErrorMessage;
     INetworkProperties networkProperties(false, MemorySource::Malloc, MemorySource::Malloc);
     runtime->LoadNetwork(netId, std::move(optNet), ignoredErrorMessage, networkProperties);

     // Creates structures for input & output
     std::vector<float> inputData0
     {
         1.0f, 1.0f, 2.0f, 2.0f, 2.0f, 3.0f, 4.0f, 4.0f, 5.0f, 5.0f, 6.0f, 6.0f
     };
     std::vector<float> inputData1
     {
         0.0f, 1.0f, 1.0f, 2.0f, 3.0f, 3.0f, 3.0f, 4.0f, 4.0f, 5.0f, 5.0f, 6.0f
     };
     std::vector<float> inputData2
     {
         12.0f, 11.0f, 10.0f, 9.0f, 8.0f, 7.0f, 6.0f, 5.0f, 4.0f, 3.0f, 2.0f, 1.0f
     };

     std::vector<float> outputData(12);

     std::vector<float> expectedOutput
     {
         11.0f, 9.0f, 7.0f, 5.0f, 3.0f, 1.0f, -1.0f, -3.0f, -5.0f, -7.0f, -9.0f, -11.0f
     };

     armnn::TensorInfo inputTensorInfo0 = runtime->GetInputTensorInfo(netId, 0);
     armnn::TensorInfo inputTensorInfo1 = runtime->GetInputTensorInfo(netId, 1);
     armnn::TensorInfo inputTensorInfo2 = runtime->GetInputTensorInfo(netId, 2);
     inputTensorInfo0.SetConstant(true);
     inputTensorInfo1.SetConstant(true);
     inputTensorInfo2.SetConstant(true);

     InputTensors inputTensors
     {
         { 0, armnn::ConstTensor(inputTensorInfo0, inputData0.data()) },
         { 1, armnn::ConstTensor(inputTensorInfo1, inputData1.data()) },
         { 2, armnn::ConstTensor(inputTensorInfo2, inputData2.data()) }
     };
     OutputTensors outputTensors
     {
         { 0,armnn::Tensor(runtime->GetOutputTensorInfo(netId, 0), outputData.data()) }
     };

     runtime->GetProfiler(netId)->EnableProfiling(true);

     // Do the inference
     runtime->EnqueueWorkload(netId, inputTensors, outputTensors);

     // Retrieve the Profiler.Print() output to get the workload execution
     ProfilerManager& profilerManager = armnn::ProfilerManager::GetInstance();
     std::stringstream ss;
     profilerManager.GetProfiler()->Print(ss);;
     std::string dump = ss.str();

     // Contains ImportMemGeneric
     std::size_t found = dump.find("ImportMemGeneric");
     CHECK(found != std::string::npos);

     // Contains SyncMemGeneric
     found = dump.find("SyncMemGeneric");
     CHECK(found != std::string::npos);

     // Does not contain CopyMemGeneric
     found = dump.find("CopyMemGeneric");
     CHECK(found == std::string::npos);

     // Use memory import between backends
     CHECK((layer4->GetType() == LayerType::MemImport));

     // Check output is as expected
     CHECK(outputData == expectedOutput);
 }

 TEST_CASE("FallbackPaddingCopyToCpuAcc")
 {
     using namespace armnn;

     // Create a mock backend object
     MockImportBackendInitialiser initialiser; // Register the Mock Backend
     auto backendObjPtr = CreateBackendObject(MockImportBackendId());
     CHECK((backendObjPtr != nullptr));

     BackendIdSet backendIds = BackendRegistryInstance().GetBackendIds();
     if (backendIds.find("MockRef") == backendIds.end())
     {
         std::string message = "Cannot load MockRef";
         FAIL(message);
     }

     // Create runtime in which test will run and allow fallback to CpuRef.
     IRuntime::CreationOptions options;
     IRuntimePtr runtime(IRuntime::Create(options));

     // Builds up the structure of the network.
     INetworkPtr net(INetwork::Create());

     Pooling2dDescriptor desc;

     IConnectableLayer* input0 = net->AddInputLayer(0, "input0");
     IConnectableLayer* input1 = net->AddInputLayer(1, "input1");
     IConnectableLayer* add = net->AddAdditionLayer("add");
     IConnectableLayer* pooling = net->AddPooling2dLayer(desc, "pooling");
     IConnectableLayer* output = net->AddOutputLayer(0, "output");

     input0->GetOutputSlot(0).Connect(add->GetInputSlot(0));
     input1->GetOutputSlot(0).Connect(add->GetInputSlot(1));
     add->GetOutputSlot(0).Connect(pooling->GetInputSlot(0));
     pooling->GetOutputSlot(0).Connect(output->GetInputSlot(0));

     TensorInfo info = TensorInfo({ 1, 2, 3, 2 }, DataType::Float32);
     TensorInfo poolingInfo = TensorInfo({ 1, 2, 1, 1 }, DataType::Float32);

     input0->GetOutputSlot(0).SetTensorInfo(info);
     input1->GetOutputSlot(0).SetTensorInfo(info);
     add->GetOutputSlot(0).SetTensorInfo(info);
     pooling->GetOutputSlot(0).SetTensorInfo(poolingInfo);

     // optimize the network
     std::vector<BackendId> backends = { "MockRef", Compute::CpuAcc };
     OptimizerOptions optOptions;
     optOptions.m_ImportEnabled = true;
     IOptimizedNetworkPtr optNet = Optimize(*net, backends, runtime->GetDeviceSpec(), optOptions);

     Graph& graph = GetGraphForTesting(optNet.get());

     armnn::Layer* const layer0 = GetFirstLayerWithName(graph, "input0");
     armnn::Layer* const layer1 = GetFirstLayerWithName(graph, "input1");
     armnn::Layer* const layer2 = GetFirstLayerWithName(graph, "add");
     armnn::Layer* const layer3 = GetFirstLayerWithName(graph, "[ add (0) -> pooling (0) ]");
     armnn::Layer* const layer4 = GetFirstLayerWithName(graph, "pooling");
     armnn::Layer* const layer5 = GetFirstLayerWithName(graph, "output");

     // Checks order is valid.
     CHECK(CheckOrder(graph, layer0, layer1));
     CHECK(CheckOrder(graph, layer1, layer2));
     CHECK(CheckOrder(graph, layer2, layer3));
     CHECK(CheckOrder(graph, layer3, layer4));
     CHECK(CheckOrder(graph, layer4, layer5));

     // Load it into the runtime. It should pass.
     NetworkId netId;
     std::string ignoredErrorMessage;
     INetworkProperties networkProperties(false, MemorySource::Malloc, MemorySource::Malloc);

     runtime->LoadNetwork(netId, std::move(optNet), ignoredErrorMessage, networkProperties);

     // Creates structures for input & output
     std::vector<float> inputData0
     {
         1.0f, 1.0f, 2.0f, 2.0f, 2.0f, 3.0f, 4.0f, 4.0f, 5.0f, 5.0f, 6.0f, 6.0f
     };
     std::vector<float> inputData1
     {
         0.0f, 1.0f, 1.0f, 2.0f, 3.0f, 3.0f, 3.0f, 4.0f, 4.0f, 5.0f, 5.0f, 6.0f
     };

     std::vector<float> outputData(2);

     std::vector<float> expectedOutput
     {
         6.0f, 12.0f
     };

     armnn::TensorInfo inputTensorInfo0 = runtime->GetInputTensorInfo(netId, 0);
     armnn::TensorInfo inputTensorInfo1 = runtime->GetInputTensorInfo(netId, 1);
     inputTensorInfo0.SetConstant(true);
     inputTensorInfo1.SetConstant(true);

     InputTensors inputTensors
     {
         { 0, armnn::ConstTensor(inputTensorInfo0, inputData0.data()) },
         { 1, armnn::ConstTensor(inputTensorInfo1, inputData1.data()) }
     };
     OutputTensors outputTensors
     {
         { 0, armnn::Tensor(runtime->GetOutputTensorInfo(netId, 0), outputData.data()) }
     };

     runtime->GetProfiler(netId)->EnableProfiling(true);

     // Do the inference
     runtime->EnqueueWorkload(netId, inputTensors, outputTensors);

     // Retrieve the Profiler.Print() output to get the workload execution
     ProfilerManager& profilerManager = armnn::ProfilerManager::GetInstance();
     std::stringstream ss;
     profilerManager.GetProfiler()->Print(ss);;
     std::string dump = ss.str();

     // Contains CopyMemGeneric between the backends
     std::size_t found = dump.find("CopyMemGeneric");
     CHECK(found != std::string::npos);

     // Contains SyncMemGeneric for the output
     found = dump.find("SyncMemGeneric");
     CHECK(found != std::string::npos);

     // Does not contain ImportMemGeneric
     found = dump.find("ImportMemGeneric");
     CHECK(found == std::string::npos);

     // Use memory import between backends
     CHECK((layer3->GetType() == LayerType::MemCopy));

     // Check output is as expected
     CHECK(outputData == expectedOutput);
 }

 TEST_CASE("FallbackImportFromCpuAcc")
 {
     using namespace armnn;

     // Create a mock backend object
     MockImportBackendInitialiser initialiser; // Register the Mock Backend
     auto backendObjPtr = CreateBackendObject(MockImportBackendId());
     CHECK((backendObjPtr != nullptr));

     BackendIdSet backendIds = BackendRegistryInstance().GetBackendIds();
     if (backendIds.find("MockRef") == backendIds.end())
     {
         std::string message = "Cannot load MockRef";
         FAIL(message);
     }

     // Create runtime in which test will run and allow fallback to CpuRef.
     IRuntime::CreationOptions options;
     IRuntimePtr runtime(IRuntime::Create(options));

     // Builds up the structure of the network.
     INetworkPtr net(INetwork::Create());

     IConnectableLayer* input0 = net->AddInputLayer(0, "input0");
     IConnectableLayer* input1 = net->AddInputLayer(1, "input1");
     IConnectableLayer* input2 = net->AddInputLayer(2, "input2");
     IConnectableLayer* sub = net->AddSubtractionLayer("sub");
     IConnectableLayer* add = net->AddAdditionLayer("add");
     IConnectableLayer* output = net->AddOutputLayer(0, "output");

     input0->GetOutputSlot(0).Connect(sub->GetInputSlot(0));
     input1->GetOutputSlot(0).Connect(sub->GetInputSlot(1));
     input2->GetOutputSlot(0).Connect(add->GetInputSlot(0));
     sub->GetOutputSlot(0).Connect(add->GetInputSlot(1));
     add->GetOutputSlot(0).Connect(output->GetInputSlot(0));

     TensorInfo info = TensorInfo({ 1, 2, 3, 2 }, DataType::Float32);

     input0->GetOutputSlot(0).SetTensorInfo(info);
     input1->GetOutputSlot(0).SetTensorInfo(info);
     input2->GetOutputSlot(0).SetTensorInfo(info);
     sub->GetOutputSlot(0).SetTensorInfo(info);
     add->GetOutputSlot(0).SetTensorInfo(info);

     // optimize the network
     std::vector<BackendId> backends = { "MockRef", Compute::CpuAcc };
     OptimizerOptions optOptions;
     optOptions.m_ImportEnabled = true;
     IOptimizedNetworkPtr optNet = Optimize(*net, backends, runtime->GetDeviceSpec(), optOptions);

     Graph& graph = GetGraphForTesting(optNet.get());

     armnn::Layer* const layer0 = GetFirstLayerWithName(graph, "input0");
     armnn::Layer* const layer1 = GetFirstLayerWithName(graph, "input1");
     armnn::Layer* const layer2 = GetFirstLayerWithName(graph, "input2");
     armnn::Layer* const layer3 = GetFirstLayerWithName(graph, "sub");
     armnn::Layer* const layer4 = GetFirstLayerWithName(graph, "[ sub (0) -> add (1) ]");
     armnn::Layer* const layer5 = GetFirstLayerWithName(graph, "add");
     armnn::Layer* const layer6 = GetFirstLayerWithName(graph, "output");

     // Checks order is valid.
     CHECK(CheckOrder(graph, layer0, layer1));
     CHECK(CheckOrder(graph, layer1, layer2));
     CHECK(CheckOrder(graph, layer2, layer3));
     CHECK(CheckOrder(graph, layer3, layer4));
     CHECK(CheckOrder(graph, layer4, layer5));
     CHECK(CheckOrder(graph, layer5, layer6));

     // Load it into the runtime. It should pass.
     NetworkId netId;
     std::string ignoredErrorMessage;

     INetworkProperties networkProperties(false, MemorySource::Malloc, MemorySource::Malloc);
     runtime->LoadNetwork(netId, std::move(optNet), ignoredErrorMessage, networkProperties);

     // Creates structures for input & output
     std::vector<float> inputData0
     {
         1.0f, 1.0f, 2.0f, 2.0f, 2.0f, 3.0f, 4.0f, 4.0f, 5.0f, 5.0f, 6.0f, 0.0f
     };
     std::vector<float> inputData1
     {
         0.0f, 1.0f, 1.0f, 2.0f, 3.0f, 3.0f, 3.0f, 4.0f, 4.0f, 5.0f, 5.0f, 6.0f
     };
     std::vector<float> inputData2
     {
         12.0f, 11.0f, 10.0f, 9.0f, 8.0f, 7.0f, 6.0f, 5.0f, 4.0f, 3.0f, 2.0f, 1.0f
     };

     std::vector<float> outputData(12);

     std::vector<float> expectedOutput
     {
         13.0f, 11.0f, 11.0f, 9.0f, 7.0f, 7.0f, 7.0f, 5.0f, 5.0f, 3.0f, 3.0f, -5.0f
     };

     armnn::TensorInfo inputTensorInfo0 = runtime->GetInputTensorInfo(netId, 0);
     armnn::TensorInfo inputTensorInfo1 = runtime->GetInputTensorInfo(netId, 1);
     armnn::TensorInfo inputTensorInfo2 = runtime->GetInputTensorInfo(netId, 2);
     inputTensorInfo0.SetConstant(true);
     inputTensorInfo1.SetConstant(true);
     inputTensorInfo2.SetConstant(true);

     InputTensors inputTensors
     {
         { 0, armnn::ConstTensor(inputTensorInfo0, inputData0.data()) },
         { 1, armnn::ConstTensor(inputTensorInfo1, inputData1.data()) },
         { 2, armnn::ConstTensor(inputTensorInfo2, inputData2.data()) }
     };
     OutputTensors outputTensors
     {
         { 0,armnn::Tensor(runtime->GetOutputTensorInfo(netId, 0), outputData.data()) }
     };

     runtime->GetProfiler(netId)->EnableProfiling(true);

     // Do the inference
     runtime->EnqueueWorkload(netId, inputTensors, outputTensors);

     // Retrieve the Profiler.Print() output to get the workload execution
     ProfilerManager& profilerManager = armnn::ProfilerManager::GetInstance();
     std::stringstream ss;
     profilerManager.GetProfiler()->Print(ss);;
     std::string dump = ss.str();

     // Contains ImportMemGeneric
     std::size_t found = dump.find("ImportMemGeneric");
     CHECK(found != std::string::npos);

     // Contains SyncMemGeneric
     found = dump.find("SyncMemGeneric");
     CHECK(found != std::string::npos);

     // Does not contain CopyMemGeneric
     found = dump.find("CopyMemGeneric");
     CHECK(found == std::string::npos);

     // Use memory import between backends
     CHECK((layer4->GetType() == LayerType::MemImport));

     // Check output is as expected
     CHECK(outputData == expectedOutput);
 }

 TEST_CASE("FallbackPaddingCopyFromCpuAcc")
 {
     using namespace armnn;

     // Create a mock backend object
     MockImportBackendInitialiser initialiser; // Register the Mock Backend
     auto backendObjPtr = CreateBackendObject(MockImportBackendId());
     CHECK((backendObjPtr != nullptr));

     BackendIdSet backendIds = BackendRegistryInstance().GetBackendIds();
     if (backendIds.find("MockRef") == backendIds.end())
     {
         std::string message = "Cannot load MockRef";
         FAIL(message);
     }

     // Create runtime in which test will run and allow fallback to CpuRef.
     IRuntime::CreationOptions options;
     IRuntimePtr runtime(IRuntime::Create(options));

     // Builds up the structure of the network.
     INetworkPtr net(INetwork::Create());

     Pooling2dDescriptor desc;

     IConnectableLayer* input0 = net->AddInputLayer(0, "input0");
     IConnectableLayer* input1 = net->AddInputLayer(1, "input1");
     IConnectableLayer* pooling = net->AddPooling2dLayer(desc, "pooling");
     IConnectableLayer* add = net->AddAdditionLayer("add");
     IConnectableLayer* output = net->AddOutputLayer(0, "output");

     input0->GetOutputSlot(0).Connect(pooling->GetInputSlot(0));
     input1->GetOutputSlot(0).Connect(add->GetInputSlot(1));
     pooling->GetOutputSlot(0).Connect(add->GetInputSlot(0));
     add->GetOutputSlot(0).Connect(output->GetInputSlot(0));

     TensorInfo inputInfo = TensorInfo({ 1, 2, 3, 2 }, DataType::Float32);
     TensorInfo poolingInfo = TensorInfo({ 1, 2, 1, 1 }, DataType::Float32);

     input0->GetOutputSlot(0).SetTensorInfo(inputInfo);
     input1->GetOutputSlot(0).SetTensorInfo(poolingInfo);
     pooling->GetOutputSlot(0).SetTensorInfo(poolingInfo);
     add->GetOutputSlot(0).SetTensorInfo(poolingInfo);

     // optimize the network
     std::vector<BackendId> backends = { "MockRef", Compute::CpuAcc };
     OptimizerOptions optOptions;
     optOptions.m_ImportEnabled = true;
     IOptimizedNetworkPtr optNet = Optimize(*net, backends, runtime->GetDeviceSpec(), optOptions);

     Graph& graph = GetGraphForTesting(optNet.get());

     armnn::Layer* const layer0 = GetFirstLayerWithName(graph, "input0");
     armnn::Layer* const layer1 = GetFirstLayerWithName(graph, "input1");
     armnn::Layer* const layer2 = GetFirstLayerWithName(graph, "pooling");
     armnn::Layer* const layer3 = GetFirstLayerWithName(graph, "[ pooling (0) -> add (0) ]");
     armnn::Layer* const layer4 = GetFirstLayerWithName(graph, "add");
     armnn::Layer* const layer5 = GetFirstLayerWithName(graph, "output");

     // Checks order is valid.
     CHECK(CheckOrder(graph, layer0, layer1));
     CHECK(CheckOrder(graph, layer1, layer2));
     CHECK(CheckOrder(graph, layer2, layer3));
     CHECK(CheckOrder(graph, layer3, layer4));
     CHECK(CheckOrder(graph, layer4, layer5));

     // Load it into the runtime. It should pass.
     NetworkId netId;
     std::string ignoredErrorMessage;
     INetworkProperties networkProperties(false, MemorySource::Malloc, MemorySource::Malloc);

     runtime->LoadNetwork(netId, std::move(optNet), ignoredErrorMessage, networkProperties);

     // Creates structures for input & output
     std::vector<float> inputData0
     {
         1.0f, 2.0f, 3.0f, 4.0f, 5.0f, 6.0f, 7.0f, 8.0f, 9.0f, 10.0f, 11.0f, 12.0f
     };
     std::vector<float> inputData1
     {
         -1.0f, 3.0f
     };

     std::vector<float> outputData(2);

     std::vector<float> expectedOutput
     {
         5.0f, 15.0f
     };

     armnn::TensorInfo inputTensorInfo0 = runtime->GetInputTensorInfo(netId, 0);
     armnn::TensorInfo inputTensorInfo1 = runtime->GetInputTensorInfo(netId, 1);
     inputTensorInfo0.SetConstant(true);
     inputTensorInfo1.SetConstant(true);

     InputTensors inputTensors
     {
         { 0, armnn::ConstTensor(inputTensorInfo0, inputData0.data()) },
         { 1, armnn::ConstTensor(inputTensorInfo1, inputData1.data()) }
     };
     OutputTensors outputTensors
     {
         { 0, armnn::Tensor(runtime->GetOutputTensorInfo(netId, 0), outputData.data()) }
     };

     runtime->GetProfiler(netId)->EnableProfiling(true);

     // Do the inference
     runtime->EnqueueWorkload(netId, inputTensors, outputTensors);

     // Retrieve the Profiler.Print() output to get the workload execution
     ProfilerManager& profilerManager = armnn::ProfilerManager::GetInstance();
     std::stringstream ss;
     profilerManager.GetProfiler()->Print(ss);;
     std::string dump = ss.str();

     // Contains CopyMemGeneric between the backends
     std::size_t found = dump.find("CopyMemGeneric");
     CHECK(found != std::string::npos);

     // Contains SyncMemGeneric for the output
     found = dump.find("SyncMemGeneric");
     CHECK(found != std::string::npos);

     // Does not contain ImportMemGeneric
     found = dump.find("ImportMemGeneric");
     CHECK(found == std::string::npos);

     // Use memory import between backends
     CHECK((layer3->GetType() == LayerType::MemCopy));

     // Check output is as expected
     CHECK(outputData == expectedOutput);
 }

 TEST_CASE("FallbackDisableImportFromCpuAcc")
 {
     using namespace armnn;

     // Create a mock backend object
     MockImportBackendInitialiser initialiser; // Register the Mock Backend
     auto backendObjPtr = CreateBackendObject(MockImportBackendId());
     CHECK((backendObjPtr != nullptr));

     BackendIdSet backendIds = BackendRegistryInstance().GetBackendIds();
     if (backendIds.find("MockRef") == backendIds.end())
     {
         std::string message = "Cannot load MockRef";
         FAIL(message);
     }

     // Create runtime in which test will run and allow fallback to CpuRef.
     IRuntime::CreationOptions options;
     IRuntimePtr runtime(IRuntime::Create(options));

     // Builds up the structure of the network.
     INetworkPtr net(INetwork::Create());

     IConnectableLayer* input0 = net->AddInputLayer(0, "input0");
     IConnectableLayer* input1 = net->AddInputLayer(1, "input1");
     IConnectableLayer* input2 = net->AddInputLayer(2, "input2");
     IConnectableLayer* sub = net->AddSubtractionLayer("sub");
     IConnectableLayer* add = net->AddAdditionLayer("add");
     IConnectableLayer* output = net->AddOutputLayer(0, "output");

     input0->GetOutputSlot(0).Connect(sub->GetInputSlot(0));
     input1->GetOutputSlot(0).Connect(sub->GetInputSlot(1));
     input2->GetOutputSlot(0).Connect(add->GetInputSlot(0));
     sub->GetOutputSlot(0).Connect(add->GetInputSlot(1));
     add->GetOutputSlot(0).Connect(output->GetInputSlot(0));

     TensorInfo info = TensorInfo({ 1, 2, 3, 2 }, DataType::Float32);

     input0->GetOutputSlot(0).SetTensorInfo(info);
     input1->GetOutputSlot(0).SetTensorInfo(info);
     input2->GetOutputSlot(0).SetTensorInfo(info);
     sub->GetOutputSlot(0).SetTensorInfo(info);
     add->GetOutputSlot(0).SetTensorInfo(info);

     // optimize the network
     std::vector<BackendId> backends = { "MockRef", Compute::CpuAcc };
     IOptimizedNetworkPtr optNet = Optimize(*net, backends, runtime->GetDeviceSpec());

     Graph& graph = GetGraphForTesting(optNet.get());

     armnn::Layer* const layer0 = GetFirstLayerWithName(graph, "input0");
     armnn::Layer* const layer1 = GetFirstLayerWithName(graph, "input1");
     armnn::Layer* const layer2 = GetFirstLayerWithName(graph, "input2");
     armnn::Layer* const layer3 = GetFirstLayerWithName(graph, "sub");
     armnn::Layer* const layer4 = GetFirstLayerWithName(graph, "[ sub (0) -> add (1) ]");
     armnn::Layer* const layer5 = GetFirstLayerWithName(graph, "add");
     armnn::Layer* const layer6 = GetFirstLayerWithName(graph, "output");

     // Checks order is valid.
     CHECK(CheckOrder(graph, layer0, layer1));
     CHECK(CheckOrder(graph, layer1, layer2));
     CHECK(CheckOrder(graph, layer2, layer3));
     CHECK(CheckOrder(graph, layer3, layer4));
     CHECK(CheckOrder(graph, layer4, layer5));
     CHECK(CheckOrder(graph, layer5, layer6));

     // Load it into the runtime. It should pass.
     NetworkId netId;
     std::string ignoredErrorMessage;
     INetworkProperties networkProperties(false, MemorySource::Undefined, MemorySource::Undefined);

     runtime->LoadNetwork(netId, std::move(optNet), ignoredErrorMessage, networkProperties);

     // Creates structures for input & output
     std::vector<float> inputData0
     {
         1.0f, 1.0f, 2.0f, 2.0f, 2.0f, 3.0f, 4.0f, 4.0f, 5.0f, 5.0f, 6.0f, 0.0f
     };
     std::vector<float> inputData1
     {
         0.0f, 1.0f, 1.0f, 2.0f, 3.0f, 3.0f, 3.0f, 4.0f, 4.0f, 5.0f, 5.0f, 6.0f
     };
     std::vector<float> inputData2
     {
         12.0f, 11.0f, 10.0f, 9.0f, 8.0f, 7.0f, 6.0f, 5.0f, 4.0f, 3.0f, 2.0f, 1.0f
     };

     std::vector<float> outputData(12);

     std::vector<float> expectedOutput
     {
         13.0f, 11.0f, 11.0f, 9.0f, 7.0f, 7.0f, 7.0f, 5.0f, 5.0f, 3.0f, 3.0f, -5.0f
     };

     armnn::TensorInfo inputTensorInfo0 = runtime->GetInputTensorInfo(netId, 0);
     armnn::TensorInfo inputTensorInfo1 = runtime->GetInputTensorInfo(netId, 1);
     armnn::TensorInfo inputTensorInfo2 = runtime->GetInputTensorInfo(netId, 2);
     inputTensorInfo0.SetConstant(true);
     inputTensorInfo1.SetConstant(true);
     inputTensorInfo2.SetConstant(true);

     InputTensors inputTensors
     {
         { 0, armnn::ConstTensor(inputTensorInfo0, inputData0.data()) },
         { 1, armnn::ConstTensor(inputTensorInfo1, inputData1.data()) },
         { 2, armnn::ConstTensor(inputTensorInfo2, inputData2.data()) }
     };
     OutputTensors outputTensors
     {
         { 0,armnn::Tensor(runtime->GetOutputTensorInfo(netId, 0), outputData.data()) }
     };

     runtime->GetProfiler(netId)->EnableProfiling(true);

     // Do the inference
     runtime->EnqueueWorkload(netId, inputTensors, outputTensors);

     // Retrieve the Profiler.Print() output to get the workload execution
     ProfilerManager& profilerManager = armnn::ProfilerManager::GetInstance();
     std::stringstream ss;
     profilerManager.GetProfiler()->Print(ss);;
     std::string dump = ss.str();

     // Contains CopyMemGeneric between the backends
     std::size_t found = dump.find("CopyMemGeneric");
     CHECK(found != std::string::npos);

     // Does not contain ImportMemGeneric
     found = dump.find("ImportMemGeneric");
     CHECK(found == std::string::npos);

     // Use memory import between backends
     CHECK((layer4->GetType() == LayerType::MemCopy));

     // Check output is as expected
     CHECK(outputData == expectedOutput);
 }

 #if defined(ARMCOMPUTECL_ENABLED)
 TEST_CASE("NeonImportEnabledFallbackToCl")
 {
     using namespace armnn;

     IRuntime::CreationOptions options;
     IRuntimePtr runtime(IRuntime::Create(options));

     // Builds up the structure of the network.
     INetworkPtr net(INetwork::Create());

     IConnectableLayer* input0 = net->AddInputLayer(0, "input0");
     IConnectableLayer* input1 = net->AddInputLayer(1, "input1");
     IConnectableLayer* input2 = net->AddInputLayer(2, "input2");
     IConnectableLayer* add = net->AddAdditionLayer("add");
     IConnectableLayer* sub = net->AddSubtractionLayer("sub");
     IConnectableLayer* output = net->AddOutputLayer(0, "output");

     input0->GetOutputSlot(0).Connect(add->GetInputSlot(0));
     input1->GetOutputSlot(0).Connect(add->GetInputSlot(1));
     input2->GetOutputSlot(0).Connect(sub->GetInputSlot(0));
     add->GetOutputSlot(0).Connect(sub->GetInputSlot(1));
     sub->GetOutputSlot(0).Connect(output->GetInputSlot(0));

     TensorInfo info = TensorInfo({ 1, 2, 4, 2 }, DataType::Float32);

     input0->GetOutputSlot(0).SetTensorInfo(info);
     input1->GetOutputSlot(0).SetTensorInfo(info);
     input2->GetOutputSlot(0).SetTensorInfo(info);
     add->GetOutputSlot(0).SetTensorInfo(info);
     sub->GetOutputSlot(0).SetTensorInfo(info);

     std::vector<BackendId> backends = { Compute::CpuAcc, Compute::GpuAcc };
     // Use BackendSelectionHint to specify GpuAcc for Subtraction layer
     sub->BackendSelectionHint(backends[1]);

     // optimize the network
     OptimizerOptions optOptions;
     optOptions.m_ImportEnabled = true;
     IOptimizedNetworkPtr optNet = Optimize(*net, backends, runtime->GetDeviceSpec(), optOptions);

     Graph& graph = GetGraphForTesting(optNet.get());

     armnn::Layer* const layer0 = GetFirstLayerWithName(graph, "input0");
     armnn::Layer* const layer1 = GetFirstLayerWithName(graph, "input1");
     armnn::Layer* const layer2 = GetFirstLayerWithName(graph, "input2");
     armnn::Layer* const layer3 = GetFirstLayerWithName(graph, "add");
     armnn::Layer* const layer4 = GetFirstLayerWithName(graph, "[ add (0) -> sub (1) ]");
     armnn::Layer* const layer5 = GetFirstLayerWithName(graph, "sub");
     armnn::Layer* const layer6 = GetFirstLayerWithName(graph, "output");

     // Checks order is valid.
     CHECK(CheckOrder(graph, layer0, layer1));
     CHECK(CheckOrder(graph, layer1, layer2));
     CHECK(CheckOrder(graph, layer2, layer3));
     CHECK(CheckOrder(graph, layer3, layer4));
     CHECK(CheckOrder(graph, layer4, layer5));
     CHECK(CheckOrder(graph, layer5, layer6));

     // Use memory import between backends
     CHECK((layer4->GetType() == LayerType::MemCopy));

     // Correctly use backend hint
     CHECK((layer5->GetBackendId() == Compute::GpuAcc ));

     // Load it into the runtime. It should pass.
     NetworkId netId;
     std::string ignoredErrorMessage;

     INetworkProperties networkProperties(false, MemorySource::Malloc, MemorySource::Malloc);

     runtime->LoadNetwork(netId, std::move(optNet), ignoredErrorMessage, networkProperties);

     // Creates structures for input & output
     std::vector<float> inputData0
     {
         1.0f, 1.0f, 2.0f, 2.0f, 2.0f, 3.0f, 4.0f, 4.0f, 5.0f, 5.0f, 6.0f, 6.0f, 1.0f, 1.0f, 2.0f, 2.0f
     };
     std::vector<float> inputData1
     {
         0.0f, 1.0f, 1.0f, 2.0f, 3.0f, 3.0f, 3.0f, 4.0f, 4.0f, 5.0f, 5.0f, 6.0f, 0.0f, 1.0f, 1.0f, 2.0f
     };
     std::vector<float> inputData2
     {
         12.0f, 11.0f, 10.0f, 9.0f, 8.0f, 7.0f, 6.0f, 5.0f, 4.0f, 3.0f, 2.0f, 1.0f, 12.0f, 11.0f, 10.0f, 9.0f
     };

     std::vector<float> outputData(16);

     std::vector<float> expectedOutput
     {
         11.0f, 9.0f, 7.0f, 5.0f, 3.0f, 1.0f, -1.0f, -3.0f, -5.0f, -7.0f, -9.0f, -11.0f, 11.0f, 9.0f, 7.0f, 5.0f
     };

     // Creates structures for input & output
     unsigned int numElements = info.GetNumElements();
     size_t totalBytes = numElements * sizeof(float);

     // Prepare aligned data
     const size_t alignment = 64;
     size_t space = totalBytes + alignment + alignment;
     auto inputData = std::make_unique<uint8_t[]>(space);
     void* alignedInputPtr = inputData.get();
     CHECK(std::align(alignment, totalBytes, alignedInputPtr, space));

     auto* intputPtr = reinterpret_cast<float*>(alignedInputPtr);
     std::copy(inputData2.begin(), inputData2.end(), intputPtr);

     armnn::TensorInfo inputTensorInfo0 = runtime->GetInputTensorInfo(netId, 0);
     armnn::TensorInfo inputTensorInfo1 = runtime->GetInputTensorInfo(netId, 1);
     armnn::TensorInfo inputTensorInfo2 = runtime->GetInputTensorInfo(netId, 2);
     inputTensorInfo0.SetConstant(true);
     inputTensorInfo1.SetConstant(true);
     inputTensorInfo2.SetConstant(true);

     InputTensors inputTensors
     {
         { 0, armnn::ConstTensor(inputTensorInfo0, inputData0.data()) },
         { 1, armnn::ConstTensor(inputTensorInfo1, inputData1.data()) },
         { 2, armnn::ConstTensor(inputTensorInfo2, alignedInputPtr) }
     };
     OutputTensors outputTensors
     {
         { 0,armnn::Tensor(runtime->GetOutputTensorInfo(netId, 0), outputData.data()) }
     };

     runtime->GetProfiler(netId)->EnableProfiling(true);

     // Do the inference
     runtime->EnqueueWorkload(netId, inputTensors, outputTensors);

     // Retrieve the Profiler.Print() output to get the workload execution
     ProfilerManager& profilerManager = armnn::ProfilerManager::GetInstance();
     std::stringstream ss;
     profilerManager.GetProfiler()->Print(ss);;
     std::string dump = ss.str();

     // Executed Subtraction using GpuAcc
     std::size_t found = dump.find("ClSubtractionWorkload_Execute");
     CHECK(found != std::string::npos);

     // Contain CopyMemGeneric
     found = dump.find("CopyMemGeneric");
     CHECK(found != std::string::npos);

     // Check output is as expected
     for(unsigned int i = 0; i < numElements; ++i)
     {
         CHECK(outputData[i] == expectedOutput[i]);
     }
     runtime->UnloadNetwork(netId);
 }

 TEST_CASE("NeonImportDisabledFallbackToCl")
 {
     using namespace armnn;

     IRuntime::CreationOptions options;
     IRuntimePtr runtime(IRuntime::Create(options));

     // Builds up the structure of the network.
     INetworkPtr net(INetwork::Create());

     IConnectableLayer* input0 = net->AddInputLayer(0, "input0");
     IConnectableLayer* input1 = net->AddInputLayer(1, "input1");
     IConnectableLayer* input2 = net->AddInputLayer(2, "input2");
     IConnectableLayer* add = net->AddAdditionLayer("add");
     IConnectableLayer* sub = net->AddSubtractionLayer("sub");
     IConnectableLayer* output = net->AddOutputLayer(0, "output");

     input0->GetOutputSlot(0).Connect(add->GetInputSlot(0));
     input1->GetOutputSlot(0).Connect(add->GetInputSlot(1));
     input2->GetOutputSlot(0).Connect(sub->GetInputSlot(0));
     add->GetOutputSlot(0).Connect(sub->GetInputSlot(1));
     sub->GetOutputSlot(0).Connect(output->GetInputSlot(0));

     TensorInfo info = TensorInfo({ 1, 2, 3, 2 }, DataType::Float32);

     input0->GetOutputSlot(0).SetTensorInfo(info);
     input1->GetOutputSlot(0).SetTensorInfo(info);
     input2->GetOutputSlot(0).SetTensorInfo(info);
     add->GetOutputSlot(0).SetTensorInfo(info);
     sub->GetOutputSlot(0).SetTensorInfo(info);

     std::vector<BackendId> backends = { Compute::CpuAcc, Compute::GpuAcc };
     // Use BackendSelectionHint to specify GpuAcc for Subtraction layer
     sub->BackendSelectionHint(backends[1]);

     // optimize the network
     OptimizerOptions optOptions;
     IOptimizedNetworkPtr optNet = Optimize(*net, backends, runtime->GetDeviceSpec(), optOptions);

     Graph& graph = GetGraphForTesting(optNet.get());

     armnn::Layer* const layer0 = GetFirstLayerWithName(graph, "input0");
     armnn::Layer* const layer1 = GetFirstLayerWithName(graph, "input1");
     armnn::Layer* const layer2 = GetFirstLayerWithName(graph, "input2");
     armnn::Layer* const layer3 = GetFirstLayerWithName(graph, "add");
     armnn::Layer* const layer4 = GetFirstLayerWithName(graph, "[ add (0) -> sub (1) ]");
     armnn::Layer* const layer5 = GetFirstLayerWithName(graph, "sub");
     armnn::Layer* const layer6 = GetFirstLayerWithName(graph, "output");

     // Checks order is valid.
     CHECK(CheckOrder(graph, layer0, layer1));
     CHECK(CheckOrder(graph, layer1, layer2));
     CHECK(CheckOrder(graph, layer2, layer3));
     CHECK(CheckOrder(graph, layer3, layer4));
     CHECK(CheckOrder(graph, layer4, layer5));
     CHECK(CheckOrder(graph, layer5, layer6));

     // Use memory import between backends
     CHECK((layer4->GetType() == LayerType::MemCopy));

     // Correctly use backend hint
     CHECK((layer5->GetBackendId() == Compute::GpuAcc ));

     // Load it into the runtime. It should pass.
     NetworkId netId;
     runtime->LoadNetwork(netId, std::move(optNet));

     // Creates structures for input & output
     std::vector<float> inputData0
     {
         1.0f, 1.0f, 2.0f, 2.0f, 2.0f, 3.0f, 4.0f, 4.0f, 5.0f, 5.0f, 6.0f, 6.0f
     };
     std::vector<float> inputData1
     {
         0.0f, 1.0f, 1.0f, 2.0f, 3.0f, 3.0f, 3.0f, 4.0f, 4.0f, 5.0f, 5.0f, 6.0f
     };
     std::vector<float> inputData2
     {
         12.0f, 11.0f, 10.0f, 9.0f, 8.0f, 7.0f, 6.0f, 5.0f, 4.0f, 3.0f, 2.0f, 1.0f
     };

     std::vector<float> outputData(12);

     std::vector<float> expectedOutput
     {
         11.0f, 9.0f, 7.0f, 5.0f, 3.0f, 1.0f, -1.0f, -3.0f, -5.0f, -7.0f, -9.0f, -11.0f
     };

     armnn::TensorInfo inputTensorInfo0 = runtime->GetInputTensorInfo(netId, 0);
     armnn::TensorInfo inputTensorInfo1 = runtime->GetInputTensorInfo(netId, 1);
     armnn::TensorInfo inputTensorInfo2 = runtime->GetInputTensorInfo(netId, 2);
     inputTensorInfo0.SetConstant(true);
     inputTensorInfo1.SetConstant(true);
     inputTensorInfo2.SetConstant(true);

     InputTensors inputTensors
     {
         { 0, armnn::ConstTensor(inputTensorInfo0, inputData0.data()) },
         { 1, armnn::ConstTensor(inputTensorInfo1, inputData1.data()) },
         { 2, armnn::ConstTensor(inputTensorInfo2, inputData2.data()) }
     };
     OutputTensors outputTensors
     {
         { 0,armnn::Tensor(runtime->GetOutputTensorInfo(netId, 0), outputData.data()) }
     };

     runtime->GetProfiler(netId)->EnableProfiling(true);

     // Do the inference
     runtime->EnqueueWorkload(netId, inputTensors, outputTensors);

     // Retrieve the Profiler.Print() output to get the workload execution
     ProfilerManager& profilerManager = armnn::ProfilerManager::GetInstance();
     std::stringstream ss;
     profilerManager.GetProfiler()->Print(ss);;
     std::string dump = ss.str();

     // Executed Subtraction using GpuAcc
     std::size_t found = dump.find("ClSubtractionWorkload_Execute");
     CHECK(found != std::string::npos);

     // Contain CopyMemGeneric
     found = dump.find("CopyMemGeneric");
     CHECK(found != std::string::npos);

     // Check output is as expected
     CHECK(outputData == expectedOutput);
 }

 TEST_CASE("NeonImportEnabledFallbackSubgraphToCl")
 {
     using namespace armnn;

     IRuntime::CreationOptions options;
     IRuntimePtr runtime(IRuntime::Create(options));

     // Builds up the structure of the network.
     INetworkPtr net(INetwork::Create());

     Pooling2dDescriptor desc;
     desc.m_PoolWidth = 2;
     desc.m_PoolHeight = 2;
     desc.m_StrideX = 2;
     desc.m_StrideY = 2;

     IConnectableLayer* input0 = net->AddInputLayer(0, "input0");
     IConnectableLayer* input1 = net->AddInputLayer(1, "input1");
     IConnectableLayer* input2 = net->AddInputLayer(2, "input2");
     IConnectableLayer* add = net->AddAdditionLayer("add");
     IConnectableLayer* sub = net->AddSubtractionLayer("sub");
     IConnectableLayer* pooling = net->AddPooling2dLayer(desc, "pooling");
     IConnectableLayer* output = net->AddOutputLayer(0, "output");

     input0->GetOutputSlot(0).Connect(add->GetInputSlot(0));
     input1->GetOutputSlot(0).Connect(add->GetInputSlot(1));
     input2->GetOutputSlot(0).Connect(sub->GetInputSlot(0));
     add->GetOutputSlot(0).Connect(sub->GetInputSlot(1));
     sub->GetOutputSlot(0).Connect(pooling->GetInputSlot(0));
     pooling->GetOutputSlot(0).Connect(output->GetInputSlot(0));

     TensorInfo info = TensorInfo({ 1, 2, 4, 2 }, DataType::Float32);
     TensorInfo poolingInfo = TensorInfo({ 1, 2, 2, 1 }, DataType::Float32);

     input0->GetOutputSlot(0).SetTensorInfo(info);
     input1->GetOutputSlot(0).SetTensorInfo(info);
     input2->GetOutputSlot(0).SetTensorInfo(info);
     add->GetOutputSlot(0).SetTensorInfo(info);
     sub->GetOutputSlot(0).SetTensorInfo(info);
     pooling->GetOutputSlot(0).SetTensorInfo(poolingInfo);

     std::vector<BackendId> backends = { Compute::CpuAcc, Compute::GpuAcc };
     // Use BackendSelectionHint to specify GpuAcc for Subtraction layer
     sub->BackendSelectionHint(backends[1]);

     // optimize the network
     OptimizerOptions optOptions;
     optOptions.m_ImportEnabled = true;
     IOptimizedNetworkPtr optNet = Optimize(*net, backends, runtime->GetDeviceSpec(), optOptions);

     Graph& graph = GetGraphForTesting(optNet.get());

     armnn::Layer* const layer0 = GetFirstLayerWithName(graph, "input0");
     armnn::Layer* const layer1 = GetFirstLayerWithName(graph, "input1");
     armnn::Layer* const layer2 = GetFirstLayerWithName(graph, "input2");
     armnn::Layer* const layer3 = GetFirstLayerWithName(graph, "add");
     armnn::Layer* const layer4 = GetFirstLayerWithName(graph, "[ add (0) -> sub (1) ]");
     armnn::Layer* const layer5 = GetFirstLayerWithName(graph, "sub");
     armnn::Layer* const layer6 = GetFirstLayerWithName(graph, "[ sub (0) -> pooling (0) ]");
     armnn::Layer* const layer7 = GetFirstLayerWithName(graph, "pooling");
     armnn::Layer* const layer8 = GetFirstLayerWithName(graph, "output");

     // Checks order is valid.
     CHECK(CheckOrder(graph, layer0, layer1));
     CHECK(CheckOrder(graph, layer1, layer2));
     CHECK(CheckOrder(graph, layer2, layer3));
     CHECK(CheckOrder(graph, layer3, layer4));
     CHECK(CheckOrder(graph, layer4, layer5));
     CHECK(CheckOrder(graph, layer5, layer6));
     CHECK(CheckOrder(graph, layer6, layer7));
     CHECK(CheckOrder(graph, layer7, layer8));

     // Use memory import between backends
     CHECK((layer4->GetType() == LayerType::MemCopy));
     CHECK((layer6->GetType() == LayerType::MemCopy));

     // Correctly use backend hint
     CHECK((layer5->GetBackendId() == Compute::GpuAcc ));

     // Load it into the runtime. It should pass.
     NetworkId netId;
     std::string ignoredErrorMessage;

     INetworkProperties networkProperties(false, MemorySource::Malloc, MemorySource::Malloc);

     runtime->LoadNetwork(netId, std::move(optNet), ignoredErrorMessage, networkProperties);

     // Creates structures for input & output
     std::vector<float> inputData0
     {
         1.0f, 1.0f, 2.0f, 2.0f, 2.0f, 3.0f, 4.0f, 4.0f, 5.0f, 5.0f, 6.0f, 6.0f, 1.0f, 1.0f, 2.0f, 2.0f
     };
     std::vector<float> inputData1
     {
         0.0f, 1.0f, 1.0f, 2.0f, 3.0f, 3.0f, 3.0f, 4.0f, 4.0f, 5.0f, 5.0f, 6.0f, 0.0f, 1.0f, 1.0f, 2.0f
     };
     std::vector<float> inputData2
     {
         12.0f, 11.0f, 10.0f, 9.0f, 8.0f, 7.0f, 6.0f, 5.0f, 4.0f, 3.0f, 2.0f, 1.0f, 12.0f, 11.0f, 10.0f, 9.0f
     };

     std::vector<float> outputData(4);

     std::vector<float> expectedOutput{ 11.0f, 3.0f, -5.0f, 11.0f };

     // Prepare aligned data
     unsigned int numElements = info.GetNumElements();
     size_t totalBytes = numElements * sizeof(float);
     const size_t alignment = 64;
     size_t space = totalBytes + alignment + alignment;
     auto inputData = std::make_unique<uint8_t[]>(space);
     void* alignedInputPtr = inputData.get();
     CHECK(std::align(alignment, totalBytes, alignedInputPtr, space));

     auto* intputPtr = reinterpret_cast<float*>(alignedInputPtr);
     std::copy(inputData2.begin(), inputData2.end(), intputPtr);

     armnn::TensorInfo inputTensorInfo0 = runtime->GetInputTensorInfo(netId, 0);
     armnn::TensorInfo inputTensorInfo1 = runtime->GetInputTensorInfo(netId, 1);
     armnn::TensorInfo inputTensorInfo2 = runtime->GetInputTensorInfo(netId, 2);
     inputTensorInfo0.SetConstant(true);
     inputTensorInfo1.SetConstant(true);
     inputTensorInfo2.SetConstant(true);

     InputTensors inputTensors
     {
         { 0, armnn::ConstTensor(inputTensorInfo0, inputData0.data()) },
         { 1, armnn::ConstTensor(inputTensorInfo1, inputData1.data()) },
         { 2, armnn::ConstTensor(inputTensorInfo2, alignedInputPtr) }
     };
     OutputTensors outputTensors
     {
         { 0,armnn::Tensor(runtime->GetOutputTensorInfo(netId, 0), outputData.data()) }
     };

     runtime->GetProfiler(netId)->EnableProfiling(true);

     // Do the inference
     runtime->EnqueueWorkload(netId, inputTensors, outputTensors);

     // Retrieve the Profiler.Print() output to get the workload execution
     ProfilerManager& profilerManager = armnn::ProfilerManager::GetInstance();
     std::stringstream ss;
     profilerManager.GetProfiler()->Print(ss);;
     std::string dump = ss.str();

     // Executed Subtraction using GpuAcc
     std::size_t found = dump.find("ClSubtractionWorkload_Execute");
     CHECK(found != std::string::npos);

     // Correctly switch back to CpuAcc
     found = dump.find("NeonPooling2dWorkload_Execute");
     CHECK(found != std::string::npos);

     // Contain CopyMemGeneric
     found = dump.find("CopyMemGeneric");
     CHECK(found != std::string::npos);

     // Contains SyncMemGeneric for output
     found = dump.find("SyncMemGeneric");
     CHECK(found != std::string::npos);

     // Check output is as expected
     CHECK(outputData == expectedOutput);
     runtime->UnloadNetwork(netId);
 }

 TEST_CASE("NeonImportDisableFallbackSubgraphToCl")
 {
     using namespace armnn;

     IRuntime::CreationOptions options;
     IRuntimePtr runtime(IRuntime::Create(options));

     // Builds up the structure of the network.
     INetworkPtr net(INetwork::Create());

     Pooling2dDescriptor desc;

     IConnectableLayer* input0 = net->AddInputLayer(0, "input0");
     IConnectableLayer* input1 = net->AddInputLayer(1, "input1");
     IConnectableLayer* input2 = net->AddInputLayer(2, "input2");
     IConnectableLayer* add = net->AddAdditionLayer("add");
     IConnectableLayer* sub = net->AddSubtractionLayer("sub");
     IConnectableLayer* pooling = net->AddPooling2dLayer(desc, "pooling");
     IConnectableLayer* output = net->AddOutputLayer(0, "output");

     input0->GetOutputSlot(0).Connect(add->GetInputSlot(0));
     input1->GetOutputSlot(0).Connect(add->GetInputSlot(1));
     input2->GetOutputSlot(0).Connect(sub->GetInputSlot(0));
     add->GetOutputSlot(0).Connect(sub->GetInputSlot(1));
     sub->GetOutputSlot(0).Connect(pooling->GetInputSlot(0));
     pooling->GetOutputSlot(0).Connect(output->GetInputSlot(0));

     TensorInfo info = TensorInfo({ 1, 2, 3, 2 }, DataType::Float32);
     TensorInfo poolingInfo = TensorInfo({ 1, 2, 1, 1 }, DataType::Float32);

     input0->GetOutputSlot(0).SetTensorInfo(info);
     input1->GetOutputSlot(0).SetTensorInfo(info);
     input2->GetOutputSlot(0).SetTensorInfo(info);
     add->GetOutputSlot(0).SetTensorInfo(info);
     sub->GetOutputSlot(0).SetTensorInfo(info);
     pooling->GetOutputSlot(0).SetTensorInfo(poolingInfo);

     std::vector<BackendId> backends = { Compute::CpuAcc, Compute::GpuAcc };
     // Use BackendSelectionHint to specify GpuAcc for Subtraction layer
     sub->BackendSelectionHint(backends[1]);

     // optimize the network
     OptimizerOptions optOptions;
     IOptimizedNetworkPtr optNet = Optimize(*net, backends, runtime->GetDeviceSpec(), optOptions);

     Graph& graph = GetGraphForTesting(optNet.get());

     armnn::Layer* const layer0 = GetFirstLayerWithName(graph, "input0");
     armnn::Layer* const layer1 = GetFirstLayerWithName(graph, "input1");
     armnn::Layer* const layer2 = GetFirstLayerWithName(graph, "input2");
     armnn::Layer* const layer3 = GetFirstLayerWithName(graph, "add");
     armnn::Layer* const layer4 = GetFirstLayerWithName(graph, "[ add (0) -> sub (1) ]");
     armnn::Layer* const layer5 = GetFirstLayerWithName(graph, "sub");
     armnn::Layer* const layer6 = GetFirstLayerWithName(graph, "[ sub (0) -> pooling (0) ]");
     armnn::Layer* const layer7 = GetFirstLayerWithName(graph, "pooling");
     armnn::Layer* const layer8 = GetFirstLayerWithName(graph, "output");

     // Checks order is valid.
     CHECK(CheckOrder(graph, layer0, layer1));
     CHECK(CheckOrder(graph, layer1, layer2));
     CHECK(CheckOrder(graph, layer2, layer3));
     CHECK(CheckOrder(graph, layer3, layer4));
     CHECK(CheckOrder(graph, layer4, layer5));
     CHECK(CheckOrder(graph, layer5, layer6));
     CHECK(CheckOrder(graph, layer6, layer7));
     CHECK(CheckOrder(graph, layer7, layer8));

     // Use memory import between backends
     CHECK((layer4->GetType() == LayerType::MemCopy));
     CHECK((layer6->GetType() == LayerType::MemCopy));

     // Correctly use backend hint
     CHECK((layer5->GetBackendId() == Compute::GpuAcc ));

     // Load it into the runtime. It should pass.
     NetworkId netId;
     runtime->LoadNetwork(netId, std::move(optNet));

     // Creates structures for input & output
     std::vector<float> inputData0
     {
         1.0f, 1.0f, 2.0f, 2.0f, 2.0f, 3.0f, 4.0f, 4.0f, 5.0f, 5.0f, 6.0f, 6.0f
     };
     std::vector<float> inputData1
     {
         0.0f, 1.0f, 1.0f, 2.0f, 3.0f, 3.0f, 3.0f, 4.0f, 4.0f, 5.0f, 5.0f, 6.0f
     };
     std::vector<float> inputData2
     {
         12.0f, 11.0f, 10.0f, 9.0f, 8.0f, 7.0f, 6.0f, 5.0f, 4.0f, 3.0f, 2.0f, 1.0f
     };

     std::vector<float> outputData(2);

     std::vector<float> expectedOutput{ 11.0f, -1.0f };

     armnn::TensorInfo inputTensorInfo0 = runtime->GetInputTensorInfo(netId, 0);
     armnn::TensorInfo inputTensorInfo1 = runtime->GetInputTensorInfo(netId, 1);
     armnn::TensorInfo inputTensorInfo2 = runtime->GetInputTensorInfo(netId, 2);
     inputTensorInfo0.SetConstant(true);
     inputTensorInfo1.SetConstant(true);
     inputTensorInfo2.SetConstant(true);

     InputTensors inputTensors
     {
         { 0, armnn::ConstTensor(inputTensorInfo0, inputData0.data()) },
         { 1, armnn::ConstTensor(inputTensorInfo1, inputData1.data()) },
         { 2, armnn::ConstTensor(inputTensorInfo2, inputData2.data()) }
     };
     OutputTensors outputTensors
     {
         { 0,armnn::Tensor(runtime->GetOutputTensorInfo(netId, 0), outputData.data()) }
     };

     runtime->GetProfiler(netId)->EnableProfiling(true);

     // Do the inference
     runtime->EnqueueWorkload(netId, inputTensors, outputTensors);

     // Retrieve the Profiler.Print() output to get the workload execution
     ProfilerManager& profilerManager = armnn::ProfilerManager::GetInstance();
     std::stringstream ss;
     profilerManager.GetProfiler()->Print(ss);;
     std::string dump = ss.str();

     // Executed Subtraction using GpuAcc
     std::size_t found = dump.find("ClSubtractionWorkload_Execute");
     CHECK(found != std::string::npos);

     // Correctly switch back to CpuAcc
     found = dump.find("NeonPooling2dWorkload_Execute");
     CHECK(found != std::string::npos);

     // Contain CopyMemGeneric
     found = dump.find("CopyMemGeneric");
     CHECK(found != std::string::npos);

     // Check output is as expected
     CHECK(outputData == expectedOutput);
 }
 #endif

 }
armnn::IRuntime::Create
static IRuntimePtr Create(const CreationOptions &options)
Definition: Runtime.cpp:40

armnn::IConnectableLayer
Interface for a layer that is connectable to other layers via InputSlots and OutputSlots.
Definition: INetwork.hpp:61

armnn::BackendRegistry::GetBackendIds
BackendIdSet GetBackendIds() const
Definition: BackendRegistry.cpp:73

armnn::MockImportBackendInitialiser
Definition: MockImportBackend.hpp:14

armnn::BackendIdSet
std::unordered_set< BackendId > BackendIdSet
Definition: BackendId.hpp:193

GetFirstLayerWithName
armnn::Layer * GetFirstLayerWithName(armnn::Graph &graph, const std::string &name)
Definition: GraphUtils.cpp:22

armnn::ProfilerManager::GetInstance
static ProfilerManager & GetInstance()
Definition: Profiling.cpp:568

CheckOrder
bool CheckOrder(const armnn::Graph &graph, const armnn::Layer *first, const armnn::Layer *second)
Checks that first comes before second in the order.
Definition: GraphUtils.cpp:68

armnn::IConnectableLayer::BackendSelectionHint
virtual void BackendSelectionHint(Optional< BackendId > backend)=0
Provide a hint for the optimizer as to which backend to prefer for this layer.

armnn::TensorInfo
Definition: Tensor.hpp:152

armnn::Pooling2dDescriptor::m_PoolWidth
uint32_t m_PoolWidth
Pooling width value.
Definition: Descriptors.hpp:365

armnn::IRuntimePtr
std::unique_ptr< IRuntime, void(*)(IRuntime *runtime)> IRuntimePtr
Definition: IRuntime.hpp:31

armnn::IProfiler::Print
void Print(std::ostream &outStream) const
Print stats for events in JSON Format to the given output stream.
Definition: Profiling.cpp:605

armnn::BackendRegistryInstance
BackendRegistry & BackendRegistryInstance()
Definition: BackendRegistry.cpp:13

armnn::InputTensors
std::vector< std::pair< LayerBindingId, class ConstTensor > > InputTensors
Definition: Tensor.hpp:392

armnn
Copyright (c) 2021 ARM Limited and Contributors.
Definition: 01_00_quick_start.dox:6

armnn::Pooling2dDescriptor::m_StrideX
uint32_t m_StrideX
Stride value when proceeding through input for the width dimension.
Definition: Descriptors.hpp:369

armnn::IOutputSlot::SetTensorInfo
virtual void SetTensorInfo(const TensorInfo &tensorInfo)=0

armnn::MockImportBackendId
constexpr const char * MockImportBackendId()
Definition: MockImportBackend.hpp:12

armnn::INetworkProperties
Definition: IRuntime.hpp:33

armnn::ProfilerManager::GetProfiler
IProfiler * GetProfiler()
Definition: Profiling.cpp:580

CommonTestUtils.hpp

armnn::Tensor
A tensor defined by a TensorInfo (shape and data type) and a mutable backing store.
Definition: Tensor.hpp:319

armnn::Pooling2dDescriptor::m_PoolHeight
uint32_t m_PoolHeight
Pooling height value.
Definition: Descriptors.hpp:367

TEST_SUITE
TEST_SUITE("NeonFallback")
Definition: NeonFallbackTests.cpp:13

armnn::Optimize
IOptimizedNetworkPtr Optimize(const INetwork &network, const std::vector< BackendId > &backendPreferences, const IDeviceSpec &deviceSpec, const OptimizerOptions &options=OptimizerOptions(), Optional< std::vector< std::string > &> messages=EmptyOptional())
Create an optimized version of the network.
Definition: Network.cpp:1605

armnn::Compute::Undefined

armnn::NetworkId
int NetworkId
Definition: IRuntime.hpp:25

armnn::ConstTensor
A tensor defined by a TensorInfo (shape and data type) and an immutable backing store.
Definition: Tensor.hpp:327

armnn::OutputTensors
std::vector< std::pair< LayerBindingId, class Tensor > > OutputTensors
Definition: Tensor.hpp:393

armnn::Layer::GetType
LayerType GetType() const override
Returns the armnn::LayerType of this layer.
Definition: Layer.hpp:265

armnn::LayerType::MemCopy

armnn::IOptimizedNetworkPtr
std::unique_ptr< IOptimizedNetwork, void(*)(IOptimizedNetwork *network)> IOptimizedNetworkPtr
Definition: INetwork.hpp:198

armnn::ProfilerManager
Definition: Profiling.hpp:111

armnn::MemorySource::Malloc

armnn::Compute::GpuAcc
GPU Execution: OpenCL: ArmCompute.

GraphUtils.hpp

armnn::OptimizerOptions
ArmNN performs an optimization on each model/network before it gets loaded for execution.
Definition: INetwork.hpp:120

armnn::Layer::GetBackendId
const BackendId & GetBackendId() const
Definition: Layer.hpp:269

armnn::Graph
Definition: Graph.hpp:30

armnn::OptimizerOptions::m_ImportEnabled
bool m_ImportEnabled
Definition: INetwork.hpp:186

armnn::IRuntime::CreationOptions
Definition: IRuntime.hpp:108

armnn::GetGraphForTesting
Graph & GetGraphForTesting(IOptimizedNetwork *optNet)
Definition: TestUtils.cpp:47

armnn::LayerType::MemImport

armnn::BoostLogSeverityMapping::info

armnn::Compute::CpuAcc
CPU Execution: NEON: ArmCompute.

MockImportBackend.hpp

CreateBackendObject
armnn::IBackendInternalUniquePtr CreateBackendObject(const armnn::BackendId &backendId)
Definition: CommonTestUtils.cpp:45

armnn::IConnectableLayer::GetInputSlot
virtual const IInputSlot & GetInputSlot(unsigned int index) const =0
Get a const input slot handle by slot index.

armnn::TensorInfo::SetConstant
void SetConstant(const bool IsConstant=true)
Marks the data corresponding to this tensor info as constant.
Definition: Tensor.cpp:516

armnn::DataType::Float32

armnn::IConnectableLayer::GetOutputSlot
virtual const IOutputSlot & GetOutputSlot(unsigned int index) const =0
Get the const output slot handle by slot index.

armnn::INetworkPtr
std::unique_ptr< INetwork, void(*)(INetwork *network)> INetworkPtr
Definition: INetwork.hpp:197

armnn::IOutputSlot::Connect
virtual int Connect(IInputSlot &destination)=0

armnn::Pooling2dDescriptor
A Pooling2dDescriptor for the Pooling2dLayer.
Definition: Descriptors.hpp:321

armnn::INetwork::Create
static INetworkPtr Create(NetworkOptions networkOptions={})
Definition: Network.cpp:478

armnn::Pooling2dDescriptor::m_StrideY
uint32_t m_StrideY
Stride value when proceeding through input for the height dimension.
Definition: Descriptors.hpp:371

armnn::Layer
Definition: Layer.hpp:210

armnn::TensorInfo::GetNumElements
unsigned int GetNumElements() const
Definition: Tensor.hpp:196