Sejak peluncuran ChatGPT OpenAI, Large Language Models medusa88 login telah menjadi investasi global yang sangat besar. Perusahaan saya, Predictika, mengembangkan platform AI percakapan dan menguji kemampuan ChatGPT untuk memahami permintaan pengguna, mengikuti logika mereka secara akurat, dan melakukannya secara percakapan. Sayangnya, eksperimen simulasi restoran kami menemukan pemahaman AI tersebut sangat cacat.

Sejak OpenAI merilis ChatGPT pada November 2022, dunia telah dilanda badai AI Generatif. Investor telah menginvestasikan miliaran dolar ke perusahaan yang membuat Large Language Models (LLM) di balik ChatGPT dan para pesaingnya, seperti Gemini milik Google, Llama milik Meta, atau Claude milik Anthropic. Mereka telah menginvestasikan miliaran dolar lagi ke perusahaan rintisan yang mengembangkan produk baru yang memanfaatkan teknologi AI Generatif.

Perusahaan saya, Predictika , telah mengembangkan platformnya sendiri yang dipatenkan untuk Agen AI percakapan. Kami ingin memahami, secara mendalam, seberapa bagus alat obrolan LLM tersebut dalam. Tugas bisnis yang kami gunakan adalah memesan makanan, secara percakapan, dari restoran bergaya Italia yang menunya khas dalam hal variasi dan kompleksitasnya. Ini adalah domain yang sangat bagus untuk menguji kemampuan penalaran alat-alat sejenis ChatGPT, karena jutaan konsumen memesan makanan melalui berbagai titik kontak. Penerima pesanan manusia pada dasarnya mengandalkan kecerdasan bawaan manusia mereka untuk memahami pesanan dan memastikan mereka mengikuti aturan menu restoran untuk membuat pesanan yang benar dan lengkap secara konsisten.

Kami menduga bahwa ChatGPT 3.5 mungkin gagal dalam beberapa kasus, jadi kami memberinya instruksi Bahasa Inggris yang cukup eksplisit sehingga kami berharap, dalam kebanyakan kasus, ia akan mengikuti logika yang melekat dalam menu kami. Yang mengejutkan kami, ia gagal dalam kebanyakan kasus yang melibatkan logika sederhana sekalipun. Jelas bahwa jika Anda menginginkan jawaban yang benar, Anda tidak bisa hanya mengandalkan LLM, atau bahkan beberapa LLM.

Kami melihat banyak kegagalan lain dan hanya merangkum yang menonjol di sini. Laporan berikut menjelaskan secara rinci tentang setiap contoh termasuk masukan pengguna, ringkasan temuan kami, dan tautan ke sesi lengkap dengan ChatGPT 3.5.

Dengan tersedianya alat obrolan berbasis LLM (misalnya, ChatGPT, Gemini, dll.) dan meningkatnya minat dalam mengembangkan Agen AI yang dapat mengotomatiskan berbagai proses bisnis perusahaan, kami ingin memahami, secara mendalam, seberapa bagus alat obrolan LLM tersebut di google.
Tugas bisnis yang kami gunakan untuk pengujian kami adalah memesan makanan, secara percakapan, dari restoran bergaya Italia yang menunya khas dalam hal variasi dan kompleksitasnya.

Kami memutuskan untuk menguji ChatGPT 3.5 (kami menggunakan panggilan API OpenAI ke model gpt-3.5-turbo-0125, bukan aplikasi web ChatGPT), memperlakukannya sebagai proksi untuk semua alat obrolan berbasis LLM.

Dalam laporan berikutnya, kami akan membahas hasil kami dengan alat obrolan berbasis LLM lainnya hanya untuk melihat apakah ada variasi signifikan dalam hasil. Kami juga akan melihat rilis ChatGPT terbaru ChatGPT 4 o1 dan melaporkannya di masa mendatang.

Laporan ini tidak hanya menarik bagi mereka yang membangun agen pemesanan makanan, tetapi juga bagi komunitas bisnis yang lebih luas yang tertarik dalam mengembangkan dan menggunakan Agen AI menggunakan LLM. Yang menarik bagi semua orang adalah temuan kami tentang seberapa baik alat obrolan berbasis LLM dapat mengikuti logika bisnis sederhana saat dieja dalam bahasa Inggris yang mudah dipahami sebagai bagian dari perintah sistem.

Dengan platform Agen AI percakapan yang dipatenkannya, Predictika telah bekerja dengan pelanggan di sejumlah vertikal seperti pendidikan (misalnya, bot situs web), restoran (misalnya, agen pemesanan makanan berbasis suara), perhotelan (misalnya, agen dukungan pelanggan di kamar) dan agen bantuan layanan lapangan. Bagi mereka yang mungkin penasaran mengapa kami memilih pemesanan makanan sebagai domain pengujian, ada beberapa alasan bagus untuk itu.

Yang terpenting, para penerima pesanan manusia di restoran tidak semuanya merupakan tenaga kerja yang sangat terampil. Bahkan, mereka biasanya hanya dibayar sedikit di atas upah minimum! Namun, mereka semua pada dasarnya adalah manusia yang cerdas. Alasan mengapa ini penting adalah karena tanpa banyak pelatihan, mereka dapat berinteraksi, dengan cukup mudah, dengan orang asing acak, yang sering kali terburu-buru dan terkadang kasar, dalam menerima pesanan mereka. Kami telah menghabiskan waktu berjam-jam mendengarkan bagaimana pesanan ditempatkan di jalur drive-through rantai restoran besar. Percakapan bisa sangat panjang dalam hal seberapa banyak bolak-balik antara pelanggan dan penerima pesanan. Agen perlu memahami maksud pelanggan, mengikuti aturan menu, meminta pengguna untuk informasi lebih lanjut saat dibutuhkan atau mengarahkan mereka agar tidak membuat pilihan yang salah. Sementara itu mereka harus tetap tenang, mencoba melakukan beberapa upselling atau cross-selling dan diukur berdasarkan waktu rata-rata untuk menyelesaikan pesanan.

Ketergantungan manusia yang menerima pesanan makanan pada kecerdasan dasar manusia — baik keterampilan berbicara maupun penalaran logis — menjadikan ini tugas tolok ukur yang sesungguhnya untuk mengevaluasi alat obrolan LLM, khususnya saat ada klaim tentang kemampuan mereka untuk bernalar dan memecahkan masalah, hingga ke kecerdasan umum buatan (AGI) yang tidak terdefinisi dengan baik.

Kami ingin memilih menu yang memiliki item dengan opsi karena hal itu melibatkan mengikuti aturan opsi, serta terlibat dalam dialog dengan pengguna untuk memperoleh semua informasi yang diperlukan guna memperoleh deskripsi yang benar dan lengkap tentang item yang dapat disesuaikan tersebut.

Kami mengambil menu dari restoran pizza Italia pada umumnya karena pesanan pizza cukup rumit sehingga menjadi ujian yang berarti bagi kecerdasan LLM.

Menu tersebut awalnya dalam format JSON (format komputer yang umum digunakan) dan kami menerjemahkannya ke dalam bahasa Inggris yang mudah dibaca (sehingga dapat dipahami oleh ChatGPT). Namun setelah diterjemahkan, kami menemukan beberapa kekurangan dan informasi yang hilang yang kami tambahkan secara manual.

Sebagian besar menu yang telah kami periksa memiliki hierarki empat tingkat. Untuk menu yang ditunjukkan sebelumnya, tingkat teratas memiliki Kategori Menu seperti Makanan Pembuka, Pizza, Calzone, Minuman, atau Makanan Penutup. Tidak seorang pun benar-benar memesan Kategori Menu — kategori tersebut terutama digunakan untuk mengatur tingkat berikutnya, yaitu, Item Menu. Ini biasanya adalah item yang dipesan orang. Item menu mungkin hanya dipesan berdasarkan nama, atau mungkin memiliki opsi yang perlu ditentukan untuk melengkapi deskripsi item menu sehingga dapat dipesan dengan benar dan dipenuhi oleh dapur restoran. Item menu di menu kami di atas meliputi

Sandwich Ayam Parmesan, Kue Keju New York, Calzone Ayam Bawang Putih, Sayap Kerbau, Pizza Vegetarian, Spaghetti dengan Bakso, dll.

yang merupakan barang-barang sederhana dan dapat dipesan hanya berdasarkan nama dan lainnya seperti Buat Pizza Anda Sendiri, Buat Calzone Anda Sendiri, Salad atau Minuman , yang memiliki opsi lebih lanjut dan dengan demikian dapat disesuaikan.

Opsi dikelompokkan sebagai Grup Pengubah. Setiap grup mencantumkan Item Pengubah yang dapat dipilih oleh pengguna beserta minimum dan maksimum yang diizinkan atau diwajibkan yang pada dasarnya menjelaskan aturan tentang berapa banyak item dalam grup yang dapat atau harus dipilih. Dalam versi menu terjemahan bahasa Inggris kami, kami mengubah batasan minimum/maksimum ini menjadi frasa yang sesuai dalam bahasa Inggris yang kami harap akan memandu ChatGPT dalam membuat keputusan yang tepat dan memandu pengguna.

 

Publicaciones Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *