WebDriver

w3cselenium

WebDriver

Сегодня я Вам расскажу о стандарте WebDriver от W3C. Данный стандарт применим для управления браузерами посредством замечательного инструмента — selenium. Основным ключевым моментом является отправка команд и получение ответа от selenium посредством REST технологии (где запрос на получение данных осуществляется путем отправки GET запроса, а установка значения или изменения состояния посредством POST запроса, DELETE очистка куков, закрытие окон, закрытие сессии).

Читать далее «WebDriver»

PhantomJS — Webkit в консоли.

PhantomJS — Webkit в консоле

    Сегодня пойдет речь об еще одном интересном инструменте — PhantomJS. Что это такое и с чем его едят?
    PhantomJS — это браузер в консоле на основе Webkit, позволяющий посредством JavaScript производить управление им для серфинга  и автоматизация действий в сети Интернета. Распространяется данная программа под лицензией — BSD License. Официальный сайт — http://phantomjs.org/. К сожалению скудная документация и к тому же только на англ. языке находится у них на сайте — http://phantomjs.org/documentation/. Читать далее «PhantomJS — Webkit в консоли.»

CURL: POST запрос, составное содержимое (multipart/form-data)

CURL upload    Очень часто встает вопрос отправки POST запроса на удаленный сервер. Давайте подробно рассмотрим как это сделать с помощью библиотеки CURL. Читать далее «CURL: POST запрос, составное содержимое (multipart/form-data)»

XRumer

xrumer

    В этой статье рассмотрим еще одну успешную представительницу программ по парсингу — XRumer. Основное назначение этой программы не собирать данные, а публиковать данные на сайтах, форумах и в социальных сетях. Читать далее «XRumer»

Datacol

Datacol    Рассмотрим еще одну программу, которая отлично справляется с автоматизацией процесса парсинга — Datacol. Читать далее «Datacol»

DOMDocument

DOMDocument

    В PHP есть замечательный класс — DOMDocument. В чем же его замечательность? Данный класс изначально предназначался для парсинга XML файлов. Он представляет из себя удобный интерфейс по манипуляции элементами DOM модели. Данный класс можно использовать не только для парсинга XML документов, но и для HTML. Читать далее «DOMDocument»

php-webdriver

facebook1

    В недрах FACEBOOK была разработана библиотека на PHP —  php-webdriver. Данная библиотека работает в связке с SELENIUM, исходный код которого выложен на GitHub. Что это за чудо? Что может? Зачем это им нужно было разрабатывать? Читать далее «php-webdriver»

Guzzle

guzzle

    Guzzle — удобная библиотека для получения содержимого веб сайта и последующей обработки его. Данная библиотека по умолчанию использует — CURL, а в случае ее отсутствия, то использует обертку — PHP потоков (php stream). Guzzle распространяется под лицензией — MIT. Она способна выполнять как синхронные запросы к веб ресурсу, так и работать с асинхронными запросами. Читать далее «Guzzle»

Human Emulator

vneshnij_vid_xhe

     Human Emulator — это полноценный Web-браузер, поддерживающий JavaScript. Легко управляемый, прост в эксплуатации, низкий порог обучения. Управлять им можно как в локально, так и подавать управляющие сигналы через сеть. До недавнего времени он был основан на движке IE, но в последних версиях перешел на хромиум. Читать далее «Human Emulator»

file_get_contents

images

    Да… да… да… не удивляйтесь. С помощью этого оператора можно достаточно успешно парсить сайты. Этот инструмент, довольно простой, но не менее эффективный! К тому же является встроенным в PHP. Минусом является невозможность проводить парсинг в несколько потоков и должна быть включена опция fopen wrappers Читать далее «file_get_contents»