Migliorare i tempi di risposta di GPT tramite lo streaming endpoint in ASP.NET Core

Marco De Sanctis, in ASP.NET Core, il 7 ottobre 2024 alle 08:00

.NET 8ASP.NET Core 8ASP.NET Web APIAzure OpenAIOpenAI

Nello scorso script abbiamo iniziato ad occuparci dei Large Language Model, e in particolare di come integrare la nostra applicazione con essi tramite Semantic Kernel.

L'esempio che abbiamo realizzato sfrutta il cosiddetto endpoint sincrono: è di semplice utilizzo, ma ha il difetto di restituire la risposta solo dopo che questa sia stata interamente elaborata del modello AI. Ciò si traduce in tempi di attesa per l'utente, durante i quali effettivamente non accade nulla.

Un'alternativa - che richiede alcune minime modifiche al codice - è quella di utilizzare lo streaming endpoint, che invece ritorna uno stream di parole che, dal nostro controller, possiamo direttamente girare al client.

Riprendiamo l'esempio che abbiamo visto in precedenza, e modifichiamo la action in questo modo:

[HttpPost]
public async IAsyncEnumerable<string> PostMessage([FromBody] string message)
{
    ChatHistory.AddUserMessage(message);

    var result = _chatCompletionService.GetStreamingChatMessageContentsAsync(ChatHistory);

    string responseMessage = string.Empty;

    await foreach (var messageContent in result)
    {
        responseMessage += messageContent.Content;
        yield return messageContent.Content;
    }

    ChatHistory.AddAssistantMessage(responseMessage);
}

Come possiamo notare, innanzi tutto il tipo restituito dal codice in alto è ora un IAsyncEnumerable, ossia un array di string che viene ritornato al client sotto forma di stream. Ci siamo occupati di questa funzionalità di ASP.NET Core in un precedente script (https://www.aspitalia.com/script/1458/Effettuare-Stream-Risposta-ASP.NET-Core-Tramite-IAsyncEnumerable.aspx).

Inoltre, questa volta abbiamo invocato il metodo GetStreamingChatMessageContentsAsync, che invece dell'intera risposta, ritorna a sua volta un oggetto IAsyncEnumerable, che possiamo iterare tramite un costrutto aync foreach.

Ognuno degli elementi della risposta, che altro non sono i vari token generati dal modello, può essere poi restituito al client tramite yield return. Come possiamo notare, però, è anche importante accumulare tutti gli elementi all'interno di una variable responseMessage, così che una volta che la risposta sia terminata, possiamo aggiungerla interamente alla history in modo da mantenerne traccia nella successive interazioni.

Se ora proviamo a eseguire questo codice, vedremo semplicemente che il risultato ottenuto è questa volta un array di elementi string. Ma se proviamo a invocarlo da un client che supporti lo streaming, come per esempio il codice di questo script (https://www.aspitalia.com/script/1459/Sfruttare-Streaming-Chiamata-Http-Blazor.aspx) noteremo come effettivamente la risposta di ChatGPT si componga gradualmente, man mano che viene generata dal modello in Azure.

Commenti

Visualizza/aggiungi commenti

| Condividi su: Twitter, Facebook, LinkedIn

Per inserire un commento, devi avere un account.

Fai il login e torna a questa pagina, oppure registrati alla nostra community.

Migliorare i tempi di risposta di GPT tramite lo streaming endpoint in ASP.NET Core

Commenti

Approfondimenti

Persistere la ChatHistory di Semantic Kernel in ASP.NET Core Web API per GPT

Proteggere le risorse Azure con private link e private endpoints

Usare i servizi di Azure OpenAI e ChatGPT in ASP.NET Core con Semantic Kernel

Gestione file Javascript in Blazor con .NET 9

Esporre i propri servizi applicativi con Semantic Kernel e ASP.NET Web API

Utilizzare i variable font nel CSS

Scrivere selettori CSS più semplici ed efficienti con :is()

Sfruttare GPT-4o realtime su Azure Open AI per conversazioni vocali

Utilizzare EF.Constant per evitare la parametrizzazione di query SQL

Collegare applicazioni server e client con .NET Aspire

Gestire il colore CSS con HWB

Utilizzare Azure AI Studio per testare i modelli AI

I più letti di oggi

Script via e-mail

In primo piano

.NET Conference Italia 2024 - Milano

.NET Conference Italia 2023 - Milano e Online

Le novità di .NET 7 e C# 11

Le novità in ASP.NET Core e Blazor con .NET 7

In evidenza

Misc

Utilizziamo i cookie per analisi, contenuti personalizzati e pubblicità.