Автоматична обробка тексту OpenAI для Google Таблиць

Власника онлайн магазину на платформі Horoshop цікавило розв’язання нижчеперелічених технічних питань та їх вартість:

1) Переклад з російської на українську найменувань товарів з їх описами та характеристиками, що загалом становило 2,8 млн символів, а також вибір найоптимальнішого сервісу для цього – ChatGPT або Google Translate API.
2) Переклад описів як з російської на українську мову і навпаки, розрахунок вартості якого необхідний за 10 000 позицій по 1000 символів, загалом – 10 млн символів.
3) Можливість здійснення рерайту описів зі збереженням їх структури, точних технічних характеристик і HTML розмітки для 50 000 товарів орієнтовно (російська мова), оскільки HTML були втрачені в результаті перекладу старим способом.
4) Наявність можливості в ChatGPT виконати пошук описів для 10 000 товарів, лише за допомогою їх назви, та автоматичне перенесення даних в таблицю Excel.

Вибір версії GPT-3.5 Turbo


Найчастіше серед усіх запитів щодо перекладів маркетплейсів є вибір на користь інтегрування з OpenaAI/ChatGPT. Вартість даної розробки згідно вибраного тарифу. Повну суму до оплати для налаштування процесу вирішення, вищезгаданих замовником, усіх технічних питань, не можливо передбачити наперед, оскільки невідома швидкість обробки такого об’єму даних у ChatGPT. А власне вартість самої розробки налаштування інтегрування ChatGPT на платформу Horishop становила 10 000 гривень.

З метою оптимізації всіх необхідних технічних рішень найчастіше використовується версія GPT-3.5 Turbo, у якій розрахунок вартості перекладу символів кирилиці відрізняється від вартості перекладу латинських символів. Виходячи з того, що оплата за 1 символ – 1 токен, то орієнтовно оплата за 1 мільйон символів становитиме 4-5 $. Також в автоматичних перекладах до ціни зазвичай додається вартість prompt запиту, який додається до тексту. В процесі роботи, в окремих випадках, текст потрібно ділити на частини.

Отримати консультацію


Налаштування функції пошуку описів товарів за допомогою ChatGPT та перенесення їх в таблицю Excel можливе, однак очікувати, що інформація буде точною та відповідати конкретному товару, не варто.

Функцію рерайту описів товарів гарантовано можна додавати в тіло prompt запиту до ChatGPT зі вказівкою «дай відповідь у структурованому html коді». Успішне тестування одного опису товару показало нижченаведений результат.





Пробний опис товару Опис товару після обробки OpenAI/ChatGPT

Остаточне технічне завдання


1) Здійснити переклад всіх назв позицій товарів на українську мову.
2) Створити описи тих товарів, які відсутні, за наявністю їх назв.
3) Забезпечити рерайт наявних описів товарів.
4) Перевести всі новостворені описи на українську мову.
5) Масова обробка документа в Гугл Таблицях, тобто з комірки A запит автоматично потраплятиме в ChatGPT, а видача результату здійснюватиметься в комірку Б. Вихідна кількість позицій товарів передбачалась 50 000.

Тривалість розробки інтеграції передбачала 10-16 робочих днів.

Розробка інтеграції


У ході роботи виникла потреба організувати операцію, з необхідної обробки даних, повторюваною, а також було прийняте оптимальне рішення під’єднати інтеграцію саме через Google Таблицю, а не окремий файл Excel. Для початку було поставлено завдання виконати обробку 100 описів товарів, що давало б можливість фактично проаналізувати вартість роботи ChatGPT. Оскільки налаштування інтеграції здійснюється під окреме завдання, тому кожне нове додаткове ТЗ, що стосується роботи Google Таблиці та синхронізації її з ChatGPT, необхідно було надсилати розробникам.

Ключ API OpenAI отримано після передплати підписки на ChatGPT Plus.


Замовник підготував вихідні дані про товари та надав три prompt запити, де у файлі формату Word вказано червоним, з якої комірки потрібно отримувати інформацію та в якій комірці повинен прописуватися результат.


Додатково рекомендовано було зробити один документ, у якому перша колонка – prompt, а друга колонка змінна. Тоді, у комірку prompt можна було замість «Вставити назву» використати , де 2 – це номер колонки, а при розборі документа в prompt за допомогою скрипта підставляти значення колонок. Внаслідок чого у визначену колонку прописувався б результат.

Отримати консультацію


Виділені заголовки та жирні шрифти в описі товару у видачі ChatGPT, при попаданні у Таблицю та імпорті його у Horoshop, не зберігаються.

Тестування


Під час заповнення першого товару за наданими prompt запитами, відповіді, як і було передбачено, автоматично потрапляли у відповідні комірки Google Таблиці. Однак, результати третього prompt запиту продублювалися та потребували корегування вручну. Успішний результат отримано після оптимізації prompt запиту до такого змісту:

«Напиши структурований унікальний опис для картки товару російською мовою, відповідно до норм SEO c html тегами для товару: «(Вставити назву – комірка B)», використовуючи інформацію з цього тексту: «(Вставити опис – комірка C)», але не змінюючи технічні терміни. Текст має бути не менше ніж 1500 символів. Не використовувати span, div, schema markup, основна назва має бути h2. (Результат у комірку D)».

Для подальшої роботи ключа API OpenAI необхідно було поповнити баланс коштів в ChatGPT. З метою уникнення неефективного використання коштів, при можливих збоях масового запуску обробки даних, поповнення рекомендовано здійснювати поступово. Поступове поповнення надавало можливість відслідкувати вартість обробки ChatGPT 50 000 товарів.

В процесі роботи відповідно збільшувалась сума поповнення.



Відстеження швидкості роботи OpenAI/ChatGPT


У зв’язку з успішною обробкою даних 100 позицій товарів (за 1,9 $), було запущено інтеграцію на решту товарів. Час створення текстів давав можливість спрогнозувати завершення всього процесу за 2,5 – 3 місяці, оскільки один товар відпрацьовувався за 2-4 хв. Після встановлення автоматичної дії на кожні 4 хв протоколу, тобто, орієнтовно 360 хв за добу, на повний прогін даних потрібно було більше 4-х місяців. Розробником внесена пропозиція прискорити інтеграцію додаванням кількості API ключів, з розрахунку на кожні 1-5-10 тисяч товарів потрібно свій ключ, а це передбачало додаткову реєстрацію нових кабінетів в ChatGPT.

Подальші спостереження виявили, що вартість швидкості заповнення, орієнтовно 300 рядків Google Таблиці, становила близько 4 $ на добу.


Кошти моментально витрачалися та потребували систематичного поповнення. Виникало питання взаємозв’язку швидкості від встановленого ліміту суми – 120$/місяць та можливості його підняття. Пізніше стало відомо, що швидкість процесу обробки даних можна збільшувати, при переході до наступного рівня – при витратах суми 50 $ та після 7-ми днів з першої оплати. Потім швидкість збільшиться при переході на 3-ій рівень, коли витратиться 100$ і т.д. Таким чином, зникла потреба у нових ключах API OpenAI. Попередній досвід роботи розробника вказував, що зазвичай українська мова обробляється найповільніше та рекомендовано пробувати поступово підіймати ліміти – до збоїв у налаштуванні інтеграції це не призводитиме.

Обробка даних зупинялася при заповненні Google Таблиці на 1000-ому рядку, а списання коштів – на 12.77 $. Це пояснювалось тим, що розробники, з метою перевірки роботи інтеграції, попередньо встановлювали додаткову верхівку контролю. Процес було успішно продовжено. Рекомендовано подальші спостереження за роботою інтеграції.

Результат


На сучасному етапі максимальний розвиток онлайн-магазинів, оптимізація їх автоматизованої роботи, та інші переваги бізнес-торгівлі забезпечуються завдяки інтегруванню платформ маркетплейсів з ChatGPT, як найновішою моделлю штучного інтелекту, розробленої OpenAI.
Підготовка розширених описів товарів, рерайт описів з дотримання HTML розмітки та їх структурованості, переклад на необхідну мову – всю цю обробку даних для великої кількості товарів може виконати версія GPT-3.5 Turbo із додатковим залученням в роботу Google Таблиці. Про це свідчить досвід розробки інтеграції, описаний у даному кейсі.


CiFrame Contacts
Безкоштовна консультація
Зробіть перший крок

Розпочніть процес оцінки та впровадження